
\newpage

\vspace*{-1.1\baselineskip}
\section{绪论}
\subsection{研究背景及意义}

随着城市化进程的加速和机动车保有量的持续增长，交通拥堵、能源消耗和环境污染等问题日益突出，成为制约城市可持续发展的重要因素。根据国家统计局数据显示，截至2022年底，全国民用汽车保有量已达3.12亿辆，其中私家车占比超过89\% \cite{ZGTJ202303004}。如此庞大的车辆规模不仅加剧了城市交通压力，还导致了交通事故频发、通行效率低下等一系列问题。在此背景下，智能交通系统（Intelligent Transportation Systems, ITS）作为缓解交通问题的重要手段，受到了广泛关注。其中，路网级自适应交通控制（Network-Level Adaptive Traffic Control, NLATC）通过动态调整交通信号配时，优化路网通行效率，成为提升城市交通管理水平的关键技术。

然而，现有路网级自适应交通控制方法在实际应用中仍面临诸多挑战。首先，交通数据具有高度动态的时空依赖性，传统方法难以充分捕捉这些复杂的依赖关系，导致控制策略的精度和实时性不足。其次，交通环境的复杂性和多变性使得单一的控制模型难以适应不同场景的需求，尤其是在多路口协同控制和大规模路网中，现有方法的全局优化能力有限。此外，交通信号控制的实时决策需要兼顾相位选择和时长优化，而传统方法通常采用两阶段优化策略，难以实现相位和时长的同步优化，限制了控制效果。针对这些问题，本文提出了一种基于交通表征学习的路网级自适应交通控制算法，旨在通过高效的表征学习和智能决策优化，实现交通信号控制的精准化和智能化。

近年来，随着深度学习和强化学习技术的快速发展，数据驱动的自适应交通控制方法取得了显著进展。基于强化学习的方法通过与环境交互学习最优控制策略，避免了传统方法依赖预定义规则的局限性，在仿真环境中表现出优异的性能 \cite{wei2018intellilight, zheng2019learning}。然而，这些方法在实际部署中仍面临诸多挑战，例如模型复杂度高、计算资源需求大以及仿真环境与真实场景之间的差异（sim-to-real gap）等。特别是在相位选择和时长优化的联合决策中，现有方法通常采用固定时长或分阶段优化策略，难以动态调整信号配时以适应实时交通变化 \cite{zhang2022dynamiclight, lu2023dualight}。此外，多路口协同控制中的异步决策问题也尚未得到充分解决，限制了方法在大规模路网中的适用性。

在交通表征学习方面，传统方法通常基于静态图结构建模交通数据的时空依赖关系，难以适应动态变化的交通环境。近年来，基于动态图学习的方法逐渐成为研究热点，通过生成动态时空图来捕捉交通数据中的复杂依赖关系，显著提升了表征学习的精度和泛化能力 \cite{li2023dynamic, zhangAdapGLAdaptiveGraph2022}。然而，现有方法在动态图生成和模型收敛性之间仍存在矛盾，尤其是在处理长时依赖和多维度交通数据时，模型的复杂度和计算开销显著增加，限制了其在实际应用中的推广。

针对上述问题，本文提出了一种基于交通表征学习的路网级自适应交通控制算法。该算法结合了动态图学习和强化学习的优势，通过生成动态时空图捕捉交通数据的复杂依赖关系，并利用混合动作空间优化策略实现相位选择和时长优化的同步决策。具体而言，本文的主要贡献如下：

（1）提出了一种基于动态图学习的交通表征学习框架，能够自适应地生成时空图以捕捉交通数据中的动态依赖关系，为下游控制任务提供高质量的上下文特征表示。

（2）设计了一种基于强化学习的混合动作空间优化算法，通过引入随机动作参数掩码和全局状态建模，实现相位和时长的同步优化，提升了模型在复杂交通场景中的适用性。

（3）支持多路口异步决策，能够适应大规模路网的实时控制需求，为路网级自适应交通控制提供了新的解决方案。

\subsection{国内外研究现状}

\subsubsection{交通时空预测的研究现状}
交通流预测是现代城市管理和智能交通系统（Intelligent Transportation Systems, ITS）的重要组成部分，其目标是通过对道路网络中车辆或行人流动的时空变化进行预测，为交通管理、出行规划和车辆导航提供支持。交通流数据通常以时间序列的形式呈现，记录了特定时间和地点的交通流量或密度信息。这些数据通过传感器、摄像头或GPS设备采集，为城市交通模式的多维度分析提供了基础。准确的交通流预测能够提高交通系统的运行效率，减少拥堵，节约能源，并支持城市的可持续发展 \cite{jiang2021dl, ijcai2018p505}。然而，交通流数据通常表现出复杂的时空异质性，受天气、交通事故和道路结构变化等多种因素的影响，使得交通流预测任务充满挑战。传统的统计模型由于难以充分捕捉交通流中的复杂时空依赖性，往往无法提供高精度的预测结果。

近年来，随着大数据技术和深度学习模型的快速发展，基于数据驱动的时空预测方法取得了显著进展。早期的研究主要围绕两类方法展开：基于循环神经网络（Recurrent Neural Networks, RNN）的方法和基于卷积神经网络（Convolutional Neural Networks, CNN）的方法。基于RNN的方法通过图卷积网络（Graph Convolutional Networks, GCN）过滤输入数据，并将隐藏状态传递给循环单元，从而捕捉时空依赖性。然而，这类方法在处理长序列时效率较低，且与GCN结合时容易发生梯度爆炸问题 \cite{seo2018structured}。基于CNN的方法则通过结合图卷积和一维卷积来提高计算效率，但仍需堆叠多层或使用全局池化来扩展模型的感受野 \cite{ijcai2018p505}。

随着研究的深入，时空预测领域逐渐转向基于Transformer的模型 \cite{vaswani2017attention}。与RNN模型更适合短序列预测不同，Transformer模型利用自注意力机制（Self-Attention Mechanism），突破了RNN在长时依赖建模中的局限性，在长时预测任务中表现出卓越的性能。自注意力机制使得Transformer模型能够更高效地捕捉复杂的长期时空依赖性，为时空预测带来了新的突破 \cite{cai2020traffic}。

传统的时空预测模型通常基于静态图结构建模，然而在实际应用中，交通网络的图结构会随时间动态变化，称为动态图。随着节点、属性和边的变化，时空预测任务的复杂性和挑战性也显著增加。为了解决这一问题，研究者提出了多种处理动态图并将其与时空预测相结合的方法。例如，基于随机游走的时间图嵌入方法能够自动采样特定时间范围内的子图，有效捕捉时空依赖性 \cite{wang2021inductive}。另一种方法DyANE \cite{sato2019dyane} 将时间图转换为静态图表示（超邻接表示），保留了时间路径信息以供后续嵌入学习。此外，点过程模型也被应用于时间图表示学习，通过建模离散时间事件序列来捕捉动态图中节点的变化。DyRep \cite{trivedi2019dyrep} 利用点过程生成动态节点嵌入，并基于这些嵌入估计特定时间戳下边出现的概率。这些动态图学习方法展示了如何有效捕捉和表示时变图中的时空依赖性，推动了时空预测模型更好地适应复杂的动态环境，从而提高了预测精度和效率。

近年来，GW-Net \cite{ijcai2019p264}、AdapGL \cite{zhangAdapGLAdaptiveGraph2022} 和 STGM \cite{lablack2023spatio} 等模型引入了自适应图学习方法，通过两个可学习的嵌入矩阵动态生成图结构。在时间动态图生成领域，尽管DGCRN \cite{li2023dynamic} 取得了一定的创新和成果，但由于时空数据的动态空间依赖性与图学习模型复杂度增加之间的矛盾，模型收敛难度仍然较大。

综上所述，交通时空预测领域在动态图学习和Transformer模型的应用方面取得了显著进展，但仍面临模型复杂度高、计算资源需求大以及动态环境适应性不足等挑战。未来的研究需要进一步探索高效的动态图生成方法和轻量化的模型架构，以提升预测精度和实际应用价值。

\subsubsection{自适应交通控制的研究现状}

交通信号控制（Traffic Signal Control, TSC）是缓解城市交通拥堵、提升道路安全性的关键技术，也是构建高效交通系统的重要组成部分。传统的交通信号控制方法主要依赖于交通工程师预定义的规则和现场校准，这些方法在面对高度动态的交通场景时缺乏灵活性 \cite{hunt1982scoot}。尽管近年来智能交通系统快速发展，但在实际应用中，许多路口仍然采用预定的信号配时方案 \cite{tang2019global}。然而，随着车辆数量的增加、自动驾驶等多样化驾驶行为的普及，以及对节能减排的迫切需求，开发能够根据实时交通状况动态调整信号配时的自适应交通信号控制（Adaptive Traffic Signal Control, ATSC）系统变得尤为重要。

自适应交通信号控制方法不仅吸引了学术界的广泛关注，也在实际应用中展现了显著的效果。自20世纪90年代以来，研究者提出了多种优化ATSC系统的方法，包括基于模型的方法 \cite{daganzo1995cell, ye2019survey}、基于最大压力的方法 \cite{varaiya2013max} 以及数据驱动的方法 \cite{wei2021recent}。近年来，强化学习（Reinforcement Learning, RL）技术在ATSC领域取得了显著进展，成为解决交通信号控制问题的热门方法。RL方法通过与交通环境的交互，无需依赖预定义规则即可学习最优控制策略，在仿真环境中表现出优异的性能。早期的RL方法如SARSA \cite{thorpe1996tra} 和表格Q学习 \cite{abdulhai2003reinforcement} 主要用于解决简化的ATSC问题，其状态空间需要离散且低维。随着深度强化学习（Deep Reinforcement Learning, DRL）的发展，许多基于DRL的ATSC方法如IntelliLight \cite{wei2018intellilight}、FRAP \cite{zheng2019learning}、PressLight \cite{wei2019presslight}、AttendLight \cite{oroojlooy2020attendlight}、Efficient-XLight \cite{wu2021efficient}、DynamicLight \cite{zhang2022dynamiclight} 和 DuaLight \cite{lu2023dualight} 等，利用深度神经网络处理复杂的高维状态空间，显著提升了控制效果。这些方法通过集中训练分散执行（Centralized Training Decentralized Execution, CTDE）框架，实现了从单路口到大规模路网的信号控制扩展 \cite{wei2019colight, chen2020toward, lin2023denselight}。

尽管基于RL的ATSC方法在仿真环境中表现优异，但其在实际部署中仍面临诸多挑战。首先，大多数RL方法采用固定时长的动作空间，无法根据实时交通状况动态调整信号相位时长。通常，研究者通过在下一个周期增加或减少固定时长（如5秒）来调整当前相位时长 \cite{liang2019deep, wei2019colight, oroojlooy2020attendlight, zhang2022expression}，然而这种固定时长的策略会显著影响模型性能 \cite{zhang2022expression}，限制了RL方法在实际场景中的适用性。CycLight \cite{han2024cyclight} 提出了一种基于参数化深度Q网络（P-DQN）的周期级策略，能够同时优化周期长度和相位分配，提升了相位时长的灵活性。然而，该方法仍依赖于周期性的相位结构，无法完全支持实时自适应信号控制。

在非周期性结构中，相位选择与时长计算的联合优化是RL模型训练的关键。相位选择通常由离散动作决定，而时长则可以被视为连续动作。DynamicLight \cite{zhang2022dynamiclight} 和 H-PPO \cite{HPPO2024} 均采用了CTDE框架，支持多路口的异步决策。DynamicLight 基于Dueling DQN，使用单一代理预测运行时参数，并通过两个模型分别提供离散动作和时间参数。相比之下，H-PPO 利用多代理架构扩展了PPO算法，通过多个策略头近似参数化动作，使得一个模型提供离散动作，另一个模型基于所选动作优化参数，从而直接在混合动作空间中进行优化。尽管这些方法取得了显著进展，但由于其两阶段决策过程（即离散动作选择未考虑动作参数），在混合动作空间决策中仍面临挑战。

为了应对上述问题，研究者提出了基于深度确定性策略梯度（Deep Deterministic Policy Gradient, DDPG）的并行混合动作空间方法（PH-DDPG）。该方法通过将每个奖励与其对应的动作参数关联，实现了整体优化的协同完成。PH-DDPG 创新性地利用单一评论家（Critic）独立评估每个动作参数的奖励，同时实现联合优化，进一步提升了模型在复杂交通场景中的适用性。

综上所述，自适应交通信号控制在深度强化学习和混合动作空间优化方面取得了显著进展，但仍面临模型复杂度高、实际部署难度大以及混合动作空间决策优化不足等挑战。未来的研究需要进一步探索高效的混合动作空间优化方法和轻量化的模型架构，以提升自适应交通信号控制的实际应用价值。